SOPE: Estabilizando la Evaluación Fuera de Política para el Aprendizaje por Refuerzo en Línea con Datos Previos
<meta content=Descubre cómo SOPE estabiliza la evaluación fuera de política en reinforcement learning online usando datos previos. Método eficaz y robusto para RL.>